科研星球

回归分析样本量如何确定?

医学研究样本量估算是令人头大的事情。近几年来,回归分析的样本量令人关注。无论研究影响因素,还是控制混杂,或者构建预测模型,总是有人发蒙,“我的样本量够不够!”


回归分析对样本量是有要求的,或者对自变量个数是有要求的。一定的样本量只允许一定数量的自变量进入模型,否则会出现超载情况,模型构建不成功!


回归分析到底对样本量有何要求呢?在回归分析中,存在着一个样本量是自变量个数10倍以上的概念,英文的意思是10 events per variable (10 EPV)。这一概念广为流传,也深受国内外学者认可。近些年有大量的文章认为这种方法不严谨----的确,哪有这么绝对的说法。不过实际应用中,没有更简单的指导回归分析样本量计算的方法了,因此10 EPV仍然是最被认可的方法。


现在,我借用2020年3月18日BMJ发表一篇论文的一段文字,来阐述回归分析的样本量估计问题。它解释了10 EPV的概念,指导如何使用10 EPV来测算样本量。


1.对于定量变量结局(特别是连续型数据),如需开展线性回归分析,有效样本量直接由总的观察对象数决定。比如一项研究如果总样本量200例,如果定量结局为血压值,那么开展线性回归分析时,将允许纳入同时20个自变量进入模型。


2.对于二分类结局,一般开展logistic回归分析。关于样本量,目前网络上流传的概念是logistic回归要求阳性数的5-10倍以上。其实这个概念不严谨的!真正有效样本量将根据二分类结局中两类结果观察数的最小值而定。比如基于200例研究对象开展分析,120例发生高血压,80例未发生高血压。本案例阳性数是120,但是实际上两类结果中,阴性数量才80,是较小值。因此有效样本量是80例,按照10 EPV原则,logistic只允许8个(而不是12个)自变量同时进入模型。


3.对于生存时间结局,则是另外的说法了。生存时间资料回归分析常见采用Cox回归,一般来说生存分析样本量测算是根据事件的发生数!这里的事件发生数则是一般意义上的阳性事件数。比如200例高血压患者,随访5年,其中120人发生心血管病患,那么回归分析时可根据120例的数据作为纳入自变量个数的标准。


4.除此之外,我在这里必须要介绍一下回归分析自变量的概念。一个自变量不等同于数据库一个变量,自变量个数会由于不同的回归模型而发生变化。比如需要哑变量,以及交互效应存在时,自变量个数有所增加。


第一,分类变量考虑设置哑变量时,情况要复杂一些。比如变量种族(分为白人、黑人、其他人种三个水平)一般回归模型需要设置哑变量。回归分析时,种族这一变量将转为2个自变量(是否是黑人、是否是其他人种)。如果一个分类变量类别越多,形成的自变量个数越多。


第二,如果要探讨交互作用,也要增加自变量的数量。如果,与设置哑变量的自变量产生交互作用,那么自变量数更要增加了。


下载 (8).jpeg


比如上表为logistic回归分析结果。种族是哑变量,同时和产妇年龄进行交互作用分析。此时,种族产生2个自变量,同时与产妇年龄的交互作用也产生2个自变量,1*2的结果。如果,两个都设置哑变量的变量开展交互作用分析,那么产生的自变量数排列组合一下,可能3*2、3*3或者更多了!


因此,回归分析的自变量数量不是原始变量的个数,而是回归分析将要呈现出来的数目。


5.回归分析不同的变量筛选方法对自变量个数或者对样本量有没有影响?

回归分析一般有向前逐步、向后逐步、双向逐步,一般来说,回归分析对自变量的个数不是建模成功的自变量数,而是候选自变量数,也就是准备纳入模型的、考虑了哑变量、交互项之后的自变量个数。当然有些时候实在没有办法--样本量真的不多--能否通过逐步回归法可以多一些变量进去呢?虽然本系列教程不怎么推荐逐步回归法,但毕竟也是应用比较广泛的方法嘛!逐步法建议选择向前逐步和双向逐步,别选择向后逐步。简单的数据模拟分析显示,如果向前逐步和双向逐步两种方法在建模成功后保留在模型的自变量个数不多,回归分析可以多考虑一些候选自变量。因为,这两种方法建模过程中不是候选自变量一口气全部纳入,因此可以避免样本量过多而超载的现象。


6.有效样本量一般建议自变量数10倍以上,但这事不绝对。统计学者也提过5-10倍以上的概念,说明5倍以上也可能可以。所以,10倍以上的概念可作为参考,接近或者超过则较为妥当。


7.针对小样本多自变量,如何进行自变量筛选呢?

对此,常规的方法就是先单因素后多因素。这估计很多人都知道,我也不多说了。反而,我要说的是,先单因素后多因素策略不是所有回归分析都要采纳的。这种理念的出现是因为小样本量而多自变量数,如果是大样本量但自变量数也不多,没有必要采用单因素后多因素,直接多因素回归分析即可。


对于小样本多自变量数的研究,我认为是主流的方法是纳入必要的自变量进入模型。必要的自变量指的是理论上是研究结局的原因变量才纳入进来。建立回归分析之前,必须认真考虑,哪些是结局可能的原因变量,哪些可能是混杂变量,哪些又可能是中介变量。不能什么都不考虑,一股脑全放进来,或者一股脑先单因素再多因素。


没有账号?